Gemini Embedding 2

These are personal notes. Gemini Embedding 2: Our first natively multimodal embedding model 2026年3月10日に公開された Gemini API 初のマルチモーダル埋め込みモデル text / image / audio / video / PDF を同じ埋め込み空間に載せられる Text: 最大8192 tokens Image: 最大6枚/req、png / jpeg 対応 Audio: テキストの文字起こし不要版、みたいな理解 Video: 最大120s、mp4 / mov 対応 Documents: 最大6ページまでのPDF さらに複数モーダルでの埋め込みも生成可能 text + image に対して1埋め込みを生成することができる 用途を考える シンプルに個人の何でもメモストレージを検索できる強み PDF、画像、動画、何でも込みで検索できる スポーツの動画クリップの検索とかできるんだろうか？ サッカーの戦術クリップの検索とか メタデータのテキストと一緒に埋め込むとよさそう カラオケの検索 あいまいな条件から楽曲の検索 Gemini Embedding が Audio をどう扱っているのかによりそう、ジャンルなどの意味も楽曲の雰囲気から自動判別して解釈してくれたら最高